LDA model
分布情况,一个个单词输入,最终输出一个结果
what do we get from this model and decryp this output?
the result of topic model is not indeed good, it is judged by person.
topic model often is a part of a big project. To show some thing we are interested in.
Topic model对于数据集比较敏感.
Common complaints of topic model
Bags of words (disadvantages)
But someone think this just its advantage.
研究者必须有足够的知识去解疑topic model 的result
一个白宫请愿的可视化.
一个文本有多个topic,一个topic有多个key words
text topic 和 人为给的topic数量之间的不匹配
Problems with using topic model
对于topic model 的冷静思考()
some Problems
topic curation process
传统的topic提取(
难点:选多少个topic)
人工诊断
解决
Topic Refinement
进行必要的分解,合并
Topic Harvest
Andrzejewki et al.2009,encouragig good topics through correlation...
lee, research has been focsed ...
Interactive Topic modeling
结合人的判断,进行迭代和循环
可视化
topic ens(Kim 2017)
convisit(Hoque)
UTOPIAN(Chou )
只有可视化,交互不是很强烈
Analyzing Petition Data
完善"维护"这样一个流程
全局为主
context introduction
Backgroud of the context : 2015 tianjin Port Explosion
时间跨越为2周,前期为死亡,损失,后期为背后的腐败.
研究:应急,事后如何
Focus:
提取topic内容
看变化
对照现实情况
social media Data and govermment data
通过此来跨越政府和民间信息的区别(how about We-media?)
steps
detecting topic
tracking topic evolution
可视化
拖过可视化交互的方式来使得model result 的结果是活的
Data Collection
Stop Word 也要去掉
自定义词典
Result
topic cohestion
比例的可视化
等事态稳定了就是追问背景
所以提前获取topic,政府可以早点准备准确的信息,这样可以杜绝相关的谣言的出现和爆炸(important!!!)
事件的分析后的时间段和发布会进行对比
Conclusions
传统的topic model 需要和人交互
多层次的分析
论证为什么要用topic model ,公正的
Q&A
1.stop wordd 中gerenal 的文字需要剔除
2.最小粒度
3.自媒体
4.聚类中心的含义 traee
5.知识图谱 carbon
6.多少人工,多少智能